NKK | Korpuss.lv

teksta (30) runas (9) vispārīgs (11) specializēts (28) morfoloģija (34) sintakse (3) semantika (1) kļūdas (2) manuāli pārbaudīts (7) diahronisks (6) tīmekļa (2) apguvēju (2) literārs (4) paralēls (1) parlamentārs (1) vēsturisks (2) periodika (5) reprezentatīvs (9) latgaliešu (3) emuāru (2)

LVK2022

Līdzsvarotais mūsdienu latviešu valodas tekstu korpuss

2000–2021, 101 milj. vārdlietojumu (123 milj. tekstvienību)

Izstrādātāji: LU MII

Vairāk informācijas Meklēt korpusā

LATE-sarunas

LATE sarunu korpuss

2012–2024, 44 stundas (429 000 tekstvienību)

Izstrādātāji: LU MII, LU LFMI

Vairāk informācijas Meklēt korpusā

MuLa2022

Mūsdienu latgaliešu tekstu korpuss 2022

1988–2021, 2 milj. vārdlietojumu (2,8 milj. tekstvienību)

Izstrādātāji: RTA, LU MII

Vairāk informācijas Meklēt korpusā

LVTB

Latviešu valodas sintaktiski marķētais korpuss

1991–2023, 19 367 teikumi (328 000 tekstvienību) (v2.15)

Izstrādātāji: LU MII

Vairāk informācijas Meklēt korpusā

BalsuTalka

Balsutalka.lv runas korpuss (Common Voice 17.0)

2023–2024, 277 stundas (1,3 milj. tekstvienību)

Izstrādātāji: LU MII, LU LFMI, LATA

Vairāk informācijas Meklēt korpusā

Barometrs

Interneta agresivitātes indekss

2011–2022, 26 milj. komentāru (642 milj. tekstvienību)

Izstrādātāji: RSU, LU MII

Vairāk informācijas Meklēt korpusā

BolsuTolka

Bolsutolka.lv runas korpuss (Common Voice 19.0)

2023–2024, 29 stundas (160 000 tekstvienību)

Izstrādātāji: RTA, LU MII, LU LFMI, LATA

Vairāk informācijas Meklēt korpusā

Cīņa

"Cīņa"

1904–1991, 185 milj. vārdlietojumu (231 milj. tekstvienību)

Izstrādātāji: LNB

Vairāk informācijas Meklēt korpusā

Disertācijas

Promocijas darbu korpuss

1993–2020, 16,7 milj. vārdlietojumu (23,4 milj. tekstvienību)

Izstrādātāji: LU MII

Vairāk informācijas Meklēt korpusā

Emuāri

Latviešu valodas emuāru korpuss

2001–2015, 6,6 milj. vārdlietojumu (8 milj. tekstvienību)

Izstrādātāji: LU MII

Vairāk informācijas Meklēt korpusā

fonLATE

LATE fonētiski marķēts runas korpuss

2012–2024, 4 stundas (48 000 tekstvienību)

Izstrādātāji: LU MII

Vairāk informācijas Meklēt korpusā

FullStack-LV

Daudzslāņu valodas resursu kopa

1991–2018, 13 691 teikums

Izstrādātāji: LU MII

Vairāk informācijas

Jaunatne

"Padomju Jaunatne"

1944–1989, 138 milj. vārdlietojumu (176 milj. tekstvienību)

Izstrādātāji: LNB

Vairāk informācijas Meklēt korpusā

Karogs

"Karogs"

1940–1994, 48,7 milj. vārdu (62,1 milj. tekstvienību)

Izstrādātāji: LNB

Vairāk informācijas Meklēt korpusā

LAMBA

Morfoloģiski marķēts longitudināls bērnu runas korpuss

2015–2017, 34 stundas

Izstrādātāji: LU MII

Vairāk informācijas Meklēt korpusā

LATE-mediji

LATE plašsaziņas līdzekļu korpuss

2015–2020, 78 stundas (682 000 tekstvienību)

Izstrādātāji: LU MII

Vairāk informācijas Meklēt korpusā

LatSenRom

Latviešu senākie romāni

1879–1920, 3,7 milj. vārdlietojumu (4,7 milj. tekstvienību)

Izstrādātāji: LNB, LU LFMI

Vairāk informācijas Meklēt korpusā

LaVA

Latviešu valodas apguvēju korpuss

2018–2021, 192 000 vārdlietojumu (241 000 tekstvienību)

Izstrādātāji: LU MII

Vairāk informācijas Meklēt korpusā

LAvīzes

"Latviešu Avīzes"

1822–1915, 35,7 milj. vārlietojumu (46 milj. tekstvienību)

Izstrādātāji: LNB

Vairāk informācijas Meklēt korpusā

Likumi

Latvijas Republikas tiesību aktu korpuss

1990–2022, 73,9 milj. vārdlietojumu (116,2 milj. tekstvienību)

Izstrādātāji: LU MII

Vairāk informācijas Meklēt korpusā

LiLa

Lietuviešu-latviešu-lietuviešu paralēlo tekstu korpuss

1982–2012, 8 milj. vārdlietojumu

Izstrādātāji: LU MII, VDU

Vairāk informācijas Meklēt korpusā

LitMāksla

"Literatūra un Māksla"

1945–1995, 52,7 milj. vārdu (65,8 milj. tekstvienību)

Izstrādātāji: LNB

Vairāk informācijas Meklēt korpusā

LRK2013

Latviešu valodas runas atpazīšanas korpuss

2005–2013, 100 stundas (1,1 milj. tekstvienību)

Izstrādātāji: LU MII, Tilde, LETA

Vairāk informācijas Meklēt korpusā

LVK2018

Līdzsvarotais mūsdienu latviešu valodas tekstu korpuss

1991–2018, 10 milj. vārdlietojumu (12 milj. tekstvienību)

Izstrādātāji: LU MII

Vairāk informācijas Meklēt korpusā

LVMED

Radioloģisko izmeklējumu transkripciju korpuss

2010–2022, 35 stundas (157 000 tekstvienību)

Izstrādātāji: LU MII, RAKUS

Vairāk informācijas Meklēt korpusā

MuLa2012

Mūsdienu latgaliešu tekstu korpuss 2012

1988–2012, 1 milj. vārdlietojumu (1,3 milj. tekstvienību)

Izstrādātāji: LU MII, RTA

Vairāk informācijas Meklēt korpusā

PanDi

Pandēmijas dienasgrāmatas

2020–2022, 565 000 vārdlietojumu (709 000 tekstvienību)

Izstrādātāji: LU LFMI

Vairāk informācijas Meklēt korpusā

Pārspriedumi

Skolēnu pārspriedumu korpuss

2018, 185 000 vārdlietojumu (226 000 tekstvienību)

Izstrādātāji: LU MII, LiepU, RTA

Vairāk informācijas Meklēt korpusā

Rainis

Raiņa darbu korpuss

1895–1929, 1,6 milj. vārdlietojumu (2,3 milj. tekstvienību)

Izstrādātāji: LU MII

Vairāk informācijas Meklēt korpusā

Saeima

LR 5.–13. Saeimas sēžu stenogrammu korpuss

1993–2022, 20 milj. vārdlietojumu (24 milj. tekstvienību)

Izstrādātāji: LU MII, RSU

Vairāk informācijas Meklēt korpusā

Senie

Latviešu valodas seno tekstu korpuss

1507–1800, 2 milj. vārdlietojumu (2,7 milj. tekstvienību)

Izstrādātāji: LU LaVI, LU MII, LU HZF

Vairāk informācijas Meklēt korpusā

Subtitri

Latvijas sabiedrisko mediju subtitru korpuss

2015–2020, 1200 stundu (10,8 milj. tekstvienību)

Izstrādātāji: LU MII

Vairāk informācijas Meklēt korpusā

Tīmeklis2007

Latviešu valodas tīmekļa korpuss

1991–2005, 99 milj. vārdlietojumu (123 milj. tekstvienību)

Izstrādātāji: LU MII

Vairāk informācijas Meklēt korpusā

Tīmeklis2020

Latviešu valodas tīmekļa korpuss

2013–2022, 403,6 milj. vārdlietojumu (492,6 milj. tekstvienību)

Izstrādātāji: LU MII

Vairāk informācijas Meklēt korpusā

UDLV-LVTB

Latviešu valodas universālo atkarību korpuss

1991–2023, 19 367 teikumi (328 000 tekstvienību) (v2.15)

Izstrādātāji: LU MII

Vairāk informācijas Meklēt korpusā

Vikipēdija

Vikipēdijas korpuss

2003–2022, 17,9 milj. vārdlietojumu (27,7 milj. tekstvienību)

Izstrādātāji: LU MII

Vairāk informācijas Meklēt korpusā

VVPP

Valsts valodas prasmes pārbaudes darbu korpuss

2016–2017, 150 000 tekstvienību

Izstrādātāji: LU MII

Vairāk informācijas

Ziņas

Latvijas ziņu portālu raksti

2000–2022, 357,2 milj. vārdlietojumu (513,5 milj. tekstvienību)

Izstrādātāji: LU MII

Vairāk informācijas Meklēt korpusā

ĪsprozaS

Sieviešu īsproza

1893–2002, 925 000 vārdlietojumu (1,2 milj. tekstvienību)

Izstrādātāji: LU LFMI

Vairāk informācijas Meklēt korpusā

B. Saulīte, R. Darģis, N. Grūzītis, I. Auziņa, K. Levāne-Petrova, L. Pretkalniņa, L. Rituma, P. Paikens, A. Znotiņš, L. Strankale, K. Pokratniece, I. Poikāns, G. Bārzdiņš, I. Skadiņa, A. Baklāne, V. Saulespurēns, J. Ziediņš.
Latvian National Corpora Collection – Korpuss.lv
Proceedings of the 13th Language Resources and Evaluation Conference (LREC), 2022, pp. 5123–5129

PDF BibTeX